全球城市可免费获得大量的地理参考全景图像,以及各种各样的城市物体上的位置和元数据的详细地图。它们提供了有关城市物体的潜在信息来源,但是对象检测的手动注释是昂贵,费力和困难的。我们可以利用这种多媒体来源自动注释街道级图像作为手动标签的廉价替代品吗?使用Panorams框架,我们引入了一种方法,以根据城市上下文信息自动生成全景图像的边界框注释。遵循这种方法,我们仅以快速自动的方式从开放数据源中获得了大规模的(尽管嘈杂,但都嘈杂,但对城市数据集进行了注释。该数据集涵盖了阿姆斯特丹市,其中包括771,299张全景图像中22个对象类别的1400万个嘈杂的边界框注释。对于许多对象,可以从地理空间元数据(例如建筑价值,功能和平均表面积)获得进一步的细粒度信息。这样的信息将很难(即使不是不可能)单独根据图像来获取。为了进行详细评估,我们引入了一个有效的众包协议,用于在全景图像中进行边界框注释,我们将其部署以获取147,075个地面真实对象注释,用于7,348张图像的子集,Panorams-clean数据集。对于我们的Panorams-Noisy数据集,我们对噪声以及不同类型的噪声如何影响图像分类和对象检测性能提供了广泛的分析。我们可以公开提供数据集,全景噪声和全景清洁,基准和工具。
translated by 谷歌翻译
卷积神经网络(CNN)已通过卷积和汇总实现了图像分类的重大进展。特别是,图像池将连接的离散网格转换为具有相同连接性的还原网格,并允许还原功能考虑图像的所有像素。但是,对于图形而不存在满足此类属性的合并。实际上,某些方法基于一个顶点选择步骤,该步骤会导致重要信息丢失。其他方法学习了顶点集的模糊聚类,该聚类几乎诱导了几乎完全减少的图形。我们建议使用名为MivSpool的新合并方法克服这两个问题。该方法基于使用最大独立顶点集(MIV)和将其余顶点分配给幸存者的最大独立顶点集(MIV)的选择的顶点。因此,我们的方法不会丢弃任何顶点信息,也不会人为地增加图的密度。实验结果表明,各种标准数据集上的图形分类的精度有所提高。
translated by 谷歌翻译